Przygoda, pieniądze czy potrzeba?
Czyli dlaczego warto i jak można uczyć analizy danych w szkole

Przemyslaw.Biecek@gmail.com

Uniwersytet Warszawski +
Fundacja Naukowa SmarterPoland.pl

19 czerwca 2015









Dlaczego tutaj jestem?

Entuzjasta eksploracji danych, badacz danych
i wykładowca na MIM UW i MiNI PW

12+ lat doświadczenia w analizie danych

3 podręczniki dotyczące analizy danych http://www.biecek.pl

Idée fixe:

Istnieje bardzo ciekawy obszar o którym nie mówi się
młodzieży przed 18 rokiem życia!

Z analizą danych (jeżeli w ogóle) większość osób może zetknąć się dopiero na studiach. To zbyt późno by zarażać zainteresowaniem analizą danych i często też nie ma wystarczająco czasu by głęboko omówić różne ciekawe zagadnienia związane z analizą danych.

Zmieńmy to, pokażmy ten ciekawy świat jeszcze przed maturą!









Potrzeba

Źródło: https://flic.kr/p/iswbBn

Źródło: https://flic.kr/p/s6895e

Świat wokół nas jest coraz głębiej digitalizowany.

Elektronika zapisuje coraz więcej danych o nas (zegarki monitorujące puls, położenie, zachowanie, stan zdrowia) i obiektach nas otaczających (komunikacja miejska, zużycie energii, ciągniki górnicze z tysiącami czujników monitorujących sprawność).

My sami w Internecie, na forach czy portalach społecznościowych pozostawiamy wiele informacji o naszych preferencjach, zachowaniu, opiniach.

Dane same z siebie są bezwartościowe, wartość (olbrzymią) nadają im osoby, które potrafią te dane zrozumieć i wyciągnąć z nich użyteczne informacje.

Rośnie ilość danych, rośnie ich złożoność. Rośnie zapotrzebowanie na osoby, potrafiące wykorzystywać te dane.

Zapotrzebowanie na lekarzy przeprowadzających badania by ocenić skuteczność różnych terapii, chemików na podstawie danych syntezujących nowe związki, biologów będących w stanie w danych wyczytać mechanizmy rządzące fizjologią roślin, lingwistów badających w danych ewolucję języka, psychologów badających w danych postępy terapii. W coraz większej liczbie zawodów analiza danych jest przydatna lub niezbędna.









Pieniądze

Źródło: https://flic.kr/p/fsGhJP

Czy wiecie (+-) ile wynosi pensja prezydenta Polski?

Brutto około 20 tys. pln.

Tymczasem według portalu Glassdoor średnia roczna pensja doświadczonego badacza danych (data scientist) w stanach to 118 tys $. To ponad 1.5x więcej niż pensja prezydenta.

[http://mashable.com/2014/12/25/data-scientist/]

Portal datajobs podaje szerszy przedział ale o podobnym środku 85 - 170 tys $ rocznie.

[https://datajobs.com/big-data-salary]

Różne źródła podają różne średnie pensje, ale podobne kwoty przytacza raport z Oreilly (mediana od 90 - 130 tys $).

Oreilly Data Science Salary Survey [http://www.oreilly.com/data/free/files/stratasurvey.pdf]









Przygoda

Analiza danych to głównie rozwiązywanie zagadek, przygoda w łączenie zależności i syntezę spójnej historii.

To może być analiza danych z portali społecznościowych o trwałości związków. I próba wyłuskania z tego strumienia danych informacji o tym jak długo trwają poszczególne etapy relacji na FB i jak się kończą. Jak opisywać czas trwania związków jeżeli niektóre się nie kończą? Czy ma sens liczenie średniej a może trzeba pokazać coś innego?

To może być analiza danych z mikroblogów takich jak Twitter podczas interesujących imprez sportowych. Śledzenie jak zachowanie w globalnej wiosce odzwierciedla wydarzenia na boisku piłkarskim.

Czasem to tylko zabawa z możliwościami jakie dane dają. Wiązanie różnych aspektów takich jak lokalizacja z tym jak wygląda opinia na temat określonego zjawiska. Dane z twittera są często oznaczone informacją o położeniu geograficznym osoby wysyłającej wiadomość. Jak wykorzystać te informację by określić jak o Olimpiadzie w Londynie mówiono w centrum a jak w wiosce olimpijskiej?

A czasem przygoda przekłada się na model wspierający leczenie najcięższych chorób. W tabeli liczb możę nie być widać kluczowych zależności, które za pomocą prostych narzędzie, takich jak drzewo decyzyjne nabierają niesamowitej siły.









Czego (się) uczyć?

W Internecie dostępnych jest wiele narzędzi pozwalających na analizę danych. Implementują one różną liczbę procedur i są tańsze lub droższe. Gdy chce się wykonać analizę A lub B można znaleźć wiele programów w których można to zrobić począwszy od Excela czy Open Office po bardzo specjalistyczne rozwiązania.

Ale nauka analizy danych to nie tylko warsztat, lista metod którą można stosować, ale też sposób pracy z danymi, kultura pracy, powtarzalność, odtwarzalność wyników, interakcje.

Otwarty program do analizy danych R jest dostępny bezpłatnie, jest rozwijany przez liczącą tysiące statystyków i informatyków społeczność. Program ten został stworzony po to by uczyć studentów analizy danych. Z uwagi na ekspresyjność może być z powodzeniem stosowany do analizy danych również na wcześniejszych etapach edukacji.

W Internecie dostępnych jest wiele materiałów, samouczków czy książek przedstawiających rozmaite aspekty R.

Ponieważ dla mnie analiza danych to syntezowanie historii na bazie dostępnych danych, stąd pomysł by wprowadzać analizę danych do szkół przez fabularne historie dotyczące rodzeństwa Bety i Bita, używającego umiejętności matematycznych i hakerskich sztuczek z komputerami w celu rozwiązywania najróżniejszych zagadek.

Premiera pierwszego opowiadania planowana jest na wrzesień 2015, ale już dzisiaj można bezpłatnie otrzymać ebooka wysyłając do mnie emaila (przemyslaw.biecek@gmail.com) z hasłem [MKUS].

http://mi2.mini.pw.edu.pl:8080/SmarterPoland/IMDB/

http://mi2.mini.pw.edu.pl:8080/SmarterPoland/PISAoccupations2012/